预训练的语言模型(PLM)通常会利用单语和多语言数据集的优势,该数据集可以在线免费获得,以在部署到特定任务中之前获取一般或混合域知识。最近提出了超大型PLM(XLPLM),以声称对较小尺寸的PLM(例如机器翻译(MT)任务)声称最高性能。这些XLPLM包括Meta-AI的WMT21密度24宽-EN-X和NLLB。 \ textIt {在这项工作中,我们检查XLPLM是否绝对优于较小尺寸的PLM,在针对特定域的MTS中进行微调。}我们使用了不同大小的两个不同的内域数据:商业自动化内部数据和\ textbf {临床}在WMT2022上共享了Clinspen2022挑战的任务数据。我们选择受欢迎的玛丽安·赫尔辛基(Marian Helsinki)作为较小尺寸的PLM和来自Meta-AI的两个大型大型转换器作为XLPLM。我们的实验研究表明,1)在较小尺寸的内域商业汽车数据上,XLPLM WMT21密度24宽24宽-EN-X确实显示出使用S \ TextSc {acre} BLEU和HLEU指标的评估得分要好得多。玛丽安(Marian),即使其得分提高率低于微调后的玛丽安(Marian); 2)在相对较大尺寸的精心准备的临床数据微调上,XLPLM NLLB \ textbf {倾向于失去}其优于较小尺寸的Marian在两个子任务(临床术语和本体概念)上使用Clinspen提供的指标Meteor,Meteor,Marian的优势。 Comet和Rouge-L,并且在所有指标上完全输给了Marian,包括S \ textsc {acre} bleu and Bleu; 3)\ textbf {指标并不总是同意}在相同的任务上使用相同的模型输出相互同意。
translated by 谷歌翻译
由于它们的低准确性,透明度缺乏透明度,而不是语义,而不是语义,而不是语言技能,而不是语义,而且与人类质量评估的普遍挑剔,机器翻译的传统自动评估度量被语言学家被广泛批评。 MQM样记录形式的人类评估始终是客户和翻译服务提供商(TSP)的真实行业环境中进行的。然而,传统的人类翻译质量评估昂贵才能实现和进入伟大的语言细节,提出对帧间可靠性(IRR)的问题,并且不设计用于衡量比优质质量翻译更糟糕的质量。在这项工作中,我们介绍了希望,基于专业后编辑注释的机器翻译输出的主导和以人为际的评估框架。它仅包含有限数量的常见错误类型,并使用评分模型与错误惩罚点(EPP)的几何进度反映了每个转换单元的错误严重性级别。来自高技术域的英语语言对MT输出的初始实验工作来自高技术领域的营销内容类型的文本揭示了我们的评估框架在反映了关于整体系统级性能和段级透明度的MT输出质量方面非常有效,并且它会增加错误类型解释。该方法具有若干关键优势,例如测量和比较少于不同系统的完美MT输出的能力,表明人类对质量的能力,立即估算所需的劳动力估算,使MT输出到优质的质量,低成本和更快的应用,以及更高的IRR。我们的实验数据可用于\ url {https://github.com/lhan87/hope}。
translated by 谷歌翻译
来自人类翻译(HT)和机器翻译(MT)研究人员的观点,翻译质量评估(TQE)是一个必不可少的任务。翻译服务提供商(TSP)必须提供大量翻译,满足客户规范,在紧张的时间框架和成本中具有苛刻的质量水平的严厉约束。 MT研究人员努力使其型号更好,这也需要可靠的质量评估。虽然自动化机器翻译评估(MTE)指标和质量估算(QE)工具广泛可用且易于访问,但现有的自动化工具不够好,并且来自专业翻译人员(HAP)的人为评估通常被选为金标准\ CITE {Han-Etal-2021-TQA}。然而,人类评估通常被指控具有低可靠性和协议。这是由主观性或统计造成的吗?如何避免待检查的整个文本,从成本和效率的角度来看,以及转换文本的最佳样本大小是什么,从而可靠地估计整个材料的翻译质量?这项工作执行了这种激励的研究,以正确估计置信区间\ Cite {Brown_Etal2001Interval},具体取决于翻译文本的样本大小,例如,例如:单词或句子的数量,需要在TQE工作流程上处理,以实现对整体翻译质量的自信和可靠的评估。我们申请这项工作的方法来自伯努利统计分布建模(BSDM)和蒙特卡罗采样分析(MCSA)。
translated by 谷歌翻译
人类评估一直昂贵,而研究人员则努力信任自动指标。为了解决这个问题,我们建议通过采取预先接受训练的语言模型(PLM)和有限的人类标记分数来定制传统指标。我们首先重新介绍Hlepor度量因子,然后是我们开发的Python版本(移植),这实现了Hlepor度量中的加权参数的自动调整。然后我们介绍了使用Optuna超参数优化框架的定制Hlepor(Cushlepor),以便更好地协议为预先接受训练的语言模型(使用Labse),这是关于Cushlepor的确切MT语言对。我们还在英语 - 德语和汉英语言对基于MQM和PSQM框架的专业人体评估数据进行了优化的曲位波。实验研究表明,Cushlepor可以提升Hlepor对PLMS的更好的表演,如Labse,如Labse的更好的成本,以及更好的人类评估协议,包括MQM和PSQM得分,并且比Bleu(AT \ URL的数据提供更好的表演(HTTPS:// github.com/poethan/cushlepor})。官方结果表明,我们的提交赢得了三种语言对,包括\ textbf {英语 - 德语}和\ textbf {中文 - 英文}通过cushlepor(lm)和\ textbf {英语 - 俄语}上\ textit {通过hlepor ted}域。
translated by 谷歌翻译
Are extralinguistic signals such as image pixels crucial for inducing constituency grammars? While past work has shown substantial gains from multimodal cues, we investigate whether such gains persist in the presence of rich information from large language models (LLMs). We find that our approach, LLM-based C-PCFG (LC-PCFG), outperforms previous multi-modal methods on the task of unsupervised constituency parsing, achieving state-of-the-art performance on a variety of datasets. Moreover, LC-PCFG results in an over 50% reduction in parameter count, and speedups in training time of 1.7x for image-aided models and more than 5x for video-aided models, respectively. These results challenge the notion that extralinguistic signals such as image pixels are needed for unsupervised grammar induction, and point to the need for better text-only baselines in evaluating the need of multi-modality for the task.
translated by 谷歌翻译
PyTorch Adapt is a library for domain adaptation, a type of machine learning algorithm that re-purposes existing models to work in new domains. It is a fully-featured toolkit, allowing users to create a complete train/test pipeline in a few lines of code. It is also modular, so users can import just the parts they need, and not worry about being locked into a framework. One defining feature of this library is its customizability. In particular, complex training algorithms can be easily modified and combined, thanks to a system of composable, lazily-evaluated hooks. In this technical report, we explain in detail these features and the overall design of the library. Code is available at https://www.github.com/KevinMusgrave/pytorch-adapt
translated by 谷歌翻译
Angluin的L*算法使用会员资格和等价查询了解了常规语言的最低(完整)确定性有限自动机(DFA)。它的概率近似正确(PAC)版本用足够大的随机会员查询替换等效查询,以使答案获得高级信心。因此,它可以应用于任何类型的(也是非规范)设备,可以将其视为合成自动机的算法,该算法根据观测值抽象该设备的行为。在这里,我们对Angluin的PAC学习算法对通过引入一些噪音从DFA获得的设备感兴趣。更确切地说,我们研究盎格鲁因算法是否会降低噪声并产生与原始设备更接近原始设备的DFA。我们提出了几种介绍噪声的方法:(1)嘈杂的设备将单词的分类W.R.T.倒置。具有很小概率的DFA,(2)嘈杂的设备在询问其分类W.R.T.之前用小概率修改了单词的字母。 DFA和(3)嘈杂的设备结合了W.R.T.单词的分类。 DFA及其分类W.R.T.柜台自动机。我们的实验是在数百个DFA上进行的。直言不讳地表明,我们的主要贡献表明:(1)每当随机过程产生嘈杂的设备时,盎格鲁因算法的行为都很好,(2)但使用结构化的噪声却很差,并且(3)几乎肯定是随机性的产量具有非竞争性语言的系统。
translated by 谷歌翻译
值得怀疑的是,动物具有其四肢的完美逆模型(例如,必须在每个关节上应用什么肌肉收缩才能到达太空中的特定位置)。但是,在机器人控制中,将ARM的最终效应器移至目标位置或沿目标轨迹需要准确的前进和逆模型。在这里,我们证明,通过从交互中学习过渡(正向)模型,我们可以使用它来推动摊销策略的学习。因此,我们重新审视了与深度主动推理框架有关的策略优化,并描述了一个模块化神经网络体系结构,该模块化神经网络体系结构同时从预测错误中学习了系统动力学以及生成合适的连续控制命令以达到所需参考位置的随机策略。我们通过将模型与线性二次调节器的基线进行比较来评估该模型,并以其他步骤来朝着类似人类的运动控制方向进行比较。
translated by 谷歌翻译
深度强化学习(或仅仅是“ RL”)在工业和研究应用中广受欢迎。但是,它仍然受到一些关键限制,从而减慢了广泛的采用。它的性能对初始条件和非确定性敏感。为了释放这些挑战,我们提出了一种建立RL代理合奏的程序,以有效地建立更好的本地决策,以实现长期累积的回报。首次进行了数百个实验,以比较2个电力控制环境中的不同集合构造程序。我们发现,由4个代理商组成的合奏提高了46%的累积奖励,将重现性提高了3.6,并且可以自然有效地训练和预测GPU和CPU。
translated by 谷歌翻译
相机陷阱彻底改变了许多物种的动物研究,这些物种以前由于其栖息地或行为而几乎无法观察到。它们通常是固定在触发时拍摄短序列图像的树上的相机。深度学习有可能克服工作量以根据分类单元或空图像自动化图像分类。但是,标准的深神经网络分类器失败,因为动物通常代表了高清图像的一小部分。这就是为什么我们提出一个名为“弱对象检测”的工作流程,以更快的速度rcnn+fpn适合这一挑战。该模型受到弱监督,因为它仅需要每个图像的动物分类量标签,但不需要任何手动边界框注释。首先,它会使用来自多个帧的运动自动执行弱监督的边界框注释。然后,它使用此薄弱的监督训练更快的RCNN+FPN模型。来自巴布亚新几内亚和密苏里州生物多样性监测活动的两个数据集获得了实验结果,然后在易于重复的测试台上获得了实验结果。
translated by 谷歌翻译